开发者故事 | 基于 DOCA GPUNetIO 的 MoE 模型推理加速实践
在第三届 NVIDIA DPU 中国黑客松竞赛中,我们见证了开发者与 NVIDIA 网络技术的深度碰撞。在 23 支参赛队伍中,有 5 支队伍脱颖而出,展现了在 AI 网络、存储和安全等领域的创新突破。
在第三届 NVIDIA DPU 中国黑客松竞赛中,我们见证了开发者与 NVIDIA 网络技术的深度碰撞。在 23 支参赛队伍中,有 5 支队伍脱颖而出,展现了在 AI 网络、存储和安全等领域的创新突破。
今天,蚂蚁百灵大模型团队正式开源其最新 MoE 大模型 ——Ling-flash-2.0。作为 Ling 2.0 架构系列的第三款模型,Ling-flash-2.0 以总参数 100B、激活仅 6.1B(non-embedding 激活 4.8B)的轻量级配置
AI在企业内部应用的场景多了之后,一到业务峰值,用户并发涌上来,要是调度系统不给力、加速引擎没提效、KVCache优化不到位,服务一旦卡壳,不仅用户体验崩了,还会带来业务损失;
中国AI应用市场迎来历史性转折点,字节跳动旗下豆包月活跃用户规模达到1.5742亿,环比增长6.6%,一举超越此前领先的DeepSeek,登顶中国原生AI应用月活榜首(据QuestMobile发布的2025年8月AI应用行业月度报告显示)。
2024年12月14日,温哥华会展中心座无虚席,ChatGPT之父 Ilya 现身大银幕,在全球 AI 顶会上, Ilya 向全行业预警:
9月16日,QuestMobile发布的2025年8月AI应用行业月度报告显示,当月,豆包以6.6%的环比增速达到1.57亿应用规模,反超DeepSeek,重新回归原生App阵营月活跃用户规模TOP1。
9月16日,QuestMobile发布的2025年8月AI应用行业月度报告显示,当月,豆包以6.6%的环比增速达到1.57亿应用规模,反超DeepSeek,重新回归原生App阵营月活跃用户规模TOP1。
为展示未来趋势,阿里巴巴发布了[1] 两款新开源模型 —— Qwen3-Next 80B-A3B-Thinking 与 Qwen3-Next 80B-A3B-Instruct,为研究者和开发者社区提供对新型混合专家模型 (MoE) 架构的预览。
阿里通义团队正式发布并开源了下一代基础模型架构Qwen3-Next,以及基于这个架构的Qwen3-Next-80B-A3B系列模型。这玩意儿有多炸裂呢?一个总参数量高达800亿的巨无霸模型,跑起来的时候居然只激活区区30亿参数,性能却能直接对标自家2350亿参
大型语言模型(Large Language Models, LLMs)如GPT-OSS、GPT-4、LLaMA和Mixtral的快速发展显著提升了人工智能的能力边界,但同时也带来了严峻的内存资源挑战。以1200亿参数的模型为例,在FP16精度下仅权重存储就需要
据 HuggingFace 官网最新数据显示,截至 2025 年 9 月 12 日,百度最新开源的文心思考模型 ERNIE-4.5-21B-A3B-Thinking在 HuggingFace 全球模型总趋势榜和文本模型趋势榜均排名第一。
模型 文心 开源 moe huggingface 2025-09-13 10:06 6
开源炸场!Qwen3-Next 80B,每次仅激活约3B;训练成本约1/10,32K以上长文本吞吐提升约10倍,原生256K。这才是开源最想看的答案。
午后,影视股走强,中国电影尾盘涨停走出6天3板,此前金逸影视3连板,幸福蓝海涨超12%,文投控股、北京文化、华谊兄弟、博纳影业、中视传媒跟涨。
9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。
9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”,中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰
今天凌晨,阿里通义实验室正式发布下一代基础模型架构Qwen3-Next,并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型,该模型拥有800亿个参数仅激活30亿个参数。
在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。LLaDA-MoE在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性。模
今天凌晨,阿里通义实验室正式发布下一代基础模型架构Qwen3-Next,并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型,该模型拥有800亿个参数,仅激活30亿个参数。
“处理200页PDF要多久?”用传统模型得3分钟,用最新的Qwen模型只要10秒——最近科技圈被这个对比刷屏了。2000tokens/秒的处理速度,不仅是数字的突破,更意味着AI能在更多“即时场景”里大显身手:实时翻译、毫秒级代码补全、客服秒回消息……技术的“
9月11日,在2025外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。实验数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B